27年成为顶级数据科学家,他愿把未来20年献给中国
《对话新商业·004期》 对话者 | 柯洲&吴信东
封图设计 | 泉十七 策划&责编 | 丽丽
第 2466 篇深度好文:9335 字 | 12 分钟阅读
“从2010年起,我就开始思考后面的路要怎么走,在高校里再干20年,可能带的研究生数量再翻一番,写的文章数量再翻一番,项目经费再翻一番,但我的价值在什么地方?”
8月17日,千人计划特聘专家、多家国际顶级数据科学大会主席 / 期刊主编,现任明略数据(笔记君注:全称为北京明略软件系统有限公司)首席科学家和副总裁吴信东在创新大厦明略数据的办公室接受《笔记侠》独家专访时表示。
笔记君注:
明略科学院目前已有来自中国科学院、中国工程院、澳大利亚科学院等机构的十几名院士入选首批Fellows,共同推动中国行业人工智能的前沿技术发展。
他们包括中国科学院院士、中国科学院数学与系统科学研究院研究员陆汝钤,中国工程院院士、清华大学教授吴建平,中国科学院院士、西安交通大学教授徐宗本,中国工程院院士方滨兴,英国皇家学会院士、ACM Fellow樊文飞, 加拿大皇家学会院士、IEEE & ACM Fellow李明,澳大利亚科学院院士、IEEE Fellow陶大程等。
此外,三十余位来自清华、北大等国内外著名学府毕业的博士硕士加入成为明略科学院骨干精英。
他们中不少人拥有在IBM、NEC、Oracle、Schlumberger等500强企业的实战经验。
这天北京的天气依然近30度高温,吴信东身着白色衬衫,黑色长裤,气色红润,神采奕奕,干练中带着亲和力。
创新大厦的办公室目前是他的主要办公室,一天中除了不时接见来自各方前来请教的访客外,大部分时间都在这里从事科学数据研究工作。
“我们着力于人工智能研究成果落地形成产品与解决方案,我是从学术界跨越到AI工业界。”他有感而发地说道。
以往在高校里带博士生,做项目,涉及到的都是一些高大上的理论研究,面对一堆数据,假设一个问题,有些问题可能要花很多年的时间才可以把它解出来。
但加入明略数据后的研究是让人工智能技术真正在公安、金融及工业轨交等领域落地,为人们的生活实实在在地带来安全和便利。
一、第一人生
如果要简单地为吴信东的“第一人生”下一个定义,2011年和2012年,他分别被授予IEEE Fellow、AAAS Fellow荣誉。证明了其对全球数据科学研究业的贡献,这个注脚十分贴切,而且因为在数据挖掘及其应用领域的先驱贡献,于2012年获得了IEEE计算机学会的技术进步奖。
在华人科学家里,吴信东的海外人生故事为人津津乐道,一位平凡的项铺小镇之子、曾经博士毕业后整整5年被一份顶级期刊毙了很多篇论文投稿,但多年以后成为这个期刊的主编,致力于用科学改变人们的生活。
上世纪八十年代专家系统的应用推动了人工智能的广泛应用,让人工智能达到了一个高峰。
1991年,已经获合肥工业大学计算机与信息系计算机应用硕士学位的吴信东,应国家发展需要,和当时大多数学者、研究生一样,被派送至海外继续深造。
1993年获得英国爱丁堡大学人工智能博士学位。2005年成为顶级国际学术期刊《IEEE TKDE》主编。
同时也是顶级国际会议 IEEE ICDM 的创办人和现任指导委员会主席,还是著名国际期刊《KAIS》的创办人和主编,以及《ACM TKDD》联合主编。
曾任美国路易斯安那大学计算机科学终身教授、计算与信息学院院长。
吴信东说:
我的研究领域一直都是数据挖掘、大数据分析以及人工智能应用等。
实际上,数据无处不在,每天干任何事,都会留下数据,而数据挖掘就是从这些数据建立模型和数据产品,作进一步数据分析。
有了数据产品后,就会对我们的日常生活带来更多便利。
比如关联分析,即把一些零散的信息关联起来,本来大家的行为各自独立,但总会出现同一行为,一旦这个频率达到一定高度,他们之间就存在必然联系,这种挖掘过程在数据科学里就被称作关联分析。
关联分析有什么作用?
吴信东举例说,比如一个小偷要在某一个房间里偷东西,必须要经过几道门,经过第一道门时,他要做的一件事是打探周围环境,两边探望。
进入到第二道门时,开始要做另外一个动作。
那么,数据科学研究实际上可以通过大量的数据进行路径分析,探测小偷的行为,在他还没得手之前进行阻止,而且还可以防止这种现象再次发生。
二、理论问题和应用问题
研究分为理论问题研究和应用问题研究,理论研究比较抽象,应用研究能够在一线落地。
科学界称其为R&D(Research and Development,即研究与开发)。
D是Development(开发),看得见、摸得着。
R是Research(研究),在思路上的复杂性和前瞻性要求更高。
比如从家去往火车站,D(备注:Development,即开发)要考虑交通路况、人为因素以及中间是不是存在湖泊等因素,但在理论研究中,这些障碍在理论上可以做假设。
所以,高等学校的学术研究,以创新性为主,等时机成熟后把它变成一个产品,然后再投入实际运用。
比如,证明任何一个不小于6的偶数都可以被拆分成两个素数,就像把一个6,拆成3和3,那么,6不是素数,它可以被3和2除。
笔记君注:素数是除了1和自身之外,就不能被整除了。
这样从6往上数,一直到几百万、上千万甚至无穷大,肯定能找到其中的两个素数。
哥德巴赫
但问题是,理论上现在没办法证明,这就是被称为1+1的哥德巴赫猜想,至今尚未证明的世界难题。
包括被公认为是对哥德巴赫猜想研究有重大贡献的陈景润,也没有证明这个猜想。
然后科学家们就把这个问题分解,证明其中的子问题。这就是理论的方法。
稍微再把这个问题推近一点,会发现世界上数学界都在关注这个问题。而且把这个问题放在实际生活中,将来也许是很有价值的。
比如,航天飞机到了月球之后,路径该怎么走?如果是素数,意味着只有一条路可走,没有其他选择了。
整体来讲,R(研究)跟D(开发)的区别在于R(研究)考虑问题的完备性、复杂性,以数学公式、理论模型为推导。
D(开发)考虑的问题是能不能应用,不要求100%落地,但实际操作要能看到成果。而且能够正常实施,能受输入也能产生输出。
吴信东举了两个更形象的例子加以说明:
这两个例子代表两个极端,一个是极端理论问题,一个是极端应用问题。
极端理论问题:
比如给你一堆无序的数字序列,18、27、105、3708等,然后让你设计一种算法。把这个序列分成两部分,让两部分各自加起来的和相等,如果做不到完全一样,就尽量一样。
“把这个问题破解了,可能会拿计算机界的最高奖,但目前为止,没人能解,因为这个问题不可解。”吴信东进一步解释,这就是一个理论问题。
应用问题:
假设一家屋顶上有一块玻璃天窗,那么,天气好时,太阳就会照射到家里。
然后让你写一个程序,算出一年中任何一个时间点,这个房子里阳光的投影面积,相信这个问题科学界的人都会做。
因为只要知道那块玻璃所处的经纬度位置,以及某一个时间点上太阳折射的角度,面积就出来了,这是应用。
总之,数据科学就是拿到一堆数据,再去理解数据,然后再对应的去做数据产品。
“到了信息时代,数据量越来越多,不同数据源所带来的数据质量良莠不齐,再加上数据是动态变化的,多了以后,次序杂乱无章。”吴教授介绍道。
数据科学最大的挑战就是不断的出现问题,然后由这些问题带来新的研究机会,不断的挑战,不断的成功,这也是数据科学最有魅力的地方。
三、27=13+14
自1991年到2018年,吴信东在海外整整打拼了27年,从国家来分,可以分成2+5+20,即在英国待了2年,在澳大利亚待了5年,在美国待了20年。
但吴信东更愿意把这27年的海外人生分成13+14的结构,前13年为打基础阶段,过了13年后,感觉自己相对进入了成熟阶段。
在打基础阶段,实际上吴信东也有过非常惨痛的经历,当时在还没有出国读博之前,他就关注到了TKDE(IEEE Transactions on Knowledge and Data Engineering),并给TKDE投了稿,但基本上是投一次毙一次。
到了爱丁堡大学后,他继续投递,有时,第一轮大改,认真修改了之后投过去继续大改,再大改以后,给毙了。
吴信东1993年毕业,但直到1998年才有了第一篇文章被TKDE期刊录用。TKDE是数据挖掘领域里最好的期刊,没有之一。
所幸的是,中了一篇以后就一发不可收拾了,到2005年,吴信东就成了这部期刊的主编。
“我把自己总结为从奴隶到将军。”吴信东打趣道。
1993年博士毕业后,他到了澳大利亚,有过5年任职讲师和高级讲师的经历,“这5年实际上就是在打基础。”吴信东补充道。
在国外,一般来讲,博士生毕业后,顺利的话可能找到一个讲师的位置,然后在这个位置上再奋斗6年左右,才有可能有提升机会。
如果不顺利的话,找不到讲师的位置,要再花2~3年时间攻读博士后,这个博士后的基本定位,现在国内外正在统一,是让博士生在找到正式工作之前作进一步积累,等积累了一定的经验之后,再去申请讲师职位。
当上讲师以后,基本就有了自由,可以围绕自己的兴趣选择研究方向,带着学生做一些更有意义的研究。
经过5年的积累,考虑到更好地进行数据科学研究,吴信东在1998年时来到了美国。“到了美国以后,前三年我感觉还是在打基础,”吴信东回忆道。
虽然在澳大利亚已经能够独当一面,但美国的系统与澳大利亚的不一样,所以,还是要不断的学习,直到三年后,他才开始在美国另一所高校拿到正教授、系主任的职位。
在美国,系主任代表了一种学术权威,这个时候,不仅要把自己的工作做好,还需要带动整个系里其他老师的研究。
所以,过了13年后,他感觉自己比较成熟了,可以更多的把他在数据科学上的研究成果和研究经历分享给学生以及同事。
开始从事一些行政工作,还创办了著名国际期刊《KAIS》以及顶级国际会议 IEEE ICDM等。
“有了《KAIS》期刊和 IEEE ICDM会议,就有了发声平台,不少华人学者也就有了共同的声音。”说到这里,吴信东的声音里透漏着一些自豪。
不断学习,不断锻炼,慢慢地有了一定的积累后再去思考如何团队建设,以及促进科学的技术进步等。
四、中外科学差距逐渐缩小
70年代末,80年代初,中国改革开放,国家努力引进国际专家教授进行学术交流的同时,也把中国的人才派送到海外各国,接收西方国家的先进知识。
但当时刚打开国门的中国经济非常落后,与西方国家差距甚大。
吴信东说:
研究生毕业后,我留在国内大学当老师,一个月的工资大概是90几元。
但到了英国后,给研究生、本科生上一个小时的辅导课,就能拿到12.5英镑,换成人民币是125元。
比当时国内硕士毕业的大学老师一个月的工资还高,这个差距是天壤之别的。
“我1991年出国,两年多就拿了博士学位,而且文章写得比较多,有时候穿西装出去作会议报告,外国同行就会问,日本来的?韩国来的?我说都不是。他们继续问,难道是来自中国?”
回忆起当时情景,吴信东仍是感概。
因为当时西方人认为中国人工智能研究还没有形成影响力,很少有参加顶级会议的机会。
但现在的形式发生了翻天覆地的变化,中国的综合实力急剧上升,在数据科学领域,华人基本占据半壁江山,很多顶级会议,基本都能看到很多华人。
“现在在国际上,华人不参加的会议,就不容易开下去。”吴信东用一个例子对比了华人在美国地位的变化。
大概是1987年左右,美国佛门特大学是个典型的白人学校,很少有华人能来这个学校任教职。
当时有一位华人老师刚到这所大学任教授,结果在一次系里组织的聚会上就发生了一件尴尬的事情。
因为是自助餐,所以每个人拿盘子挑选自己喜欢的食物,结果这位华人老师把食物一样一样选好后,另一个白人老师跑过来,说:“谢谢你!”就把盘子端过去开吃了。
为什么?
因为他们之前没见过华人来当教授,把这个华人老师当成了送餐的服务员。
但现在不会有这种情况发生了,无论到美国的哪一所高校,基本上都有华人教授。如果没有,只可能有两种情况:
1.这个地方没有吸引力,华人教授不愿去。
2.这个学校有明显的种族歧视,这种情况现在极少。
“而且,在我看来,国内很多学校的综合能力普遍比国外非一流学校综合能力强得多。”吴信东强调。
不仅仅是清华、北大,甚至很多985和211学校学生能做到的事情,很多国外学校的学生没办法做到,差距非常明显。
近年来,国内很多学校更多地引进国外优质资源,把熟悉国外环境的老师引回国内,进行信息交流,这是科技的进步,国家的进步。
在数据上看,出国和到国内来读书就业的人数已经呈现逆向反转。
五、中国的科研支持力度很大
1.科研投资上
“从国家层面来看,中国政府对数据科学领域的支持,比其他任何国家的力度都大。”吴信东分析道。
虽然中国整体科研投资未必赶上了美国,但美国正在走下坡路,中国走的是上坡路。
就综合国力来讲,中国对科研上的投资比例超过了美国,在数据科学方面,尤其是人工智能、大数据领域,已形成一种国家呼声。
国内科学家能拿到的科技部和基金委的大项目资助已经让英美高校的教授们望尘莫及了。
但中西方国家也有两个明显的区别:
一方面是驱动来源不尽相同。
在西方研究叫curiosity driven,即好奇心驱动。你想做什么,只要证明它可行,得到同行的认可,这个项目就可以启动了。
中国也支持科研兴趣,但国家大幅度的经费更多地倾向于科技部和基金会的重大项目,几乎都是国家导向,当然,这也是我们的一个优势。
因为国家能够把科研投资集中在一些重大研究领域,起到方向性引导作用。
另一方面,相对来讲,国外的许多科研工作者比较冷静,不容易被别人影响。
“我觉得这个事情不对,或者这个事情不太适合于我,我就不做了。”这种情况在国内也有,但相对来讲要少一些。
2.研发能力上
中国正在赶超英美。一来是中国人做事干劲很足,很努力,接手的事情就一定要把它做到最好,这一点让西方人吃惊。
另一方面,思维方式上也存在一定差异,无论是在理论研究还是在应用研究上都有差别。但究竟谁会做得更好,现在还难分伯仲。
总之,中国要赶上甚至超越西方国家,需要一个过程,两头都需要努力。
一是研究方面,中国真正的原创能力,就是开创性的研究这块,需要顶尖人才的支持,在真正的科学大师方面,相较于西方国家,中国可能要少一点。
二是技术究成果方面。我们缺少的不是研究成果,但技术领域还有一点的距离。
因为就算从美国挖一两个最顶级的工程师过来,也还 解决不了问题,中国的制造技术还需要一段时间的积累。
六、第二人生
吴信东在其“第一人生”便达到人生的成就巅峰,但吴信东对自己的人生有与众不同的思考。
他有个“把人工智能做到极致”的人生信念,希望把他在大学里做了二十多年的研究能够很好地和实际行业融合起来。
把大数据迈向新的台阶,做大知识,然后再做大智慧,跟人工智能一起人机并行,让世界变得更加美好。
在跟明略数据吴明辉董事长及其他高管接触之后,他感觉这个公司确实有远景,2018年5月选择回国,并加盟明略,出任明略首席科学家、副总裁一职。
“选择明略,主要归因于两点,一来是发展方向上非常契合,另一方面是发挥自己。”吴信东坦诚道。
1.发展方向契合
正如吴信东在上文提到的R&D(Research and Development,即研究与开发),在高校里做的研究是R(研究),是一些高大上的理论研究,但要真正落实于实际运用中,可能还有一定距离。
明略公司现在所做的主题——行业人工智能来落实大数据的行业应用,与他原来在美国的大学里面做了二十年的研究非常吻合。
“所以,我感觉到我原来做的研究跟明略公司的主题能够很好地融合起来。”吴信东补充道。
最重要的是,未来10至15年,中国人工智能行业将迎来落地的战略机遇期,一个重要切入点就是利用人工智能重构社会和企业知识的生产、流动和使用。
在中国从人口红利到人才和智能红利转型的背景下,人工智能将有力提升创新驱动发展的源头供给能力。
2.发挥自己
“我们在海外,应中央组织部的千人计划,实际上也想着怎么为国家做点事情,”吴信东说道。在美国,教师没有退休年龄,退休只有两种可能:
一种是养老金额差不多和在学校工作得到的薪酬差不多时,没有再干下去的动机了。
无论是在英国、澳大利亚还是在美国,均有完善的养老机制。
从你开始工作的那天起,就必须把工资的一部分,通常是3%~8%,存在你的个人退休金里,这个钱一般不能提前取出来,但可以用作投资。
然后,学校再给你补交一部分退休金,有时会有12%,这个退休金账号属于你,也就是说,从拿工资那天起,你的退休金也一直在涨。
所以,到一定年龄,养老金的收益会高出你在学校工作的工资,这时候,很多人就没有再干下去的动力了。
另一种情况则是自己的身体状况,“有些老教授,写字粉笔都在往下掉了,那学生就会向学校反馈,这个老师不再适合上课了,那就退休”。
“趁着我写字粉笔还不会往下掉,同时退休金也有了一定积累的情况下,来明略再干20年,在企业界发挥自己”。吴信东打趣道。
七、大数据、大知识、大智慧
1.大数据
大数据比较好理解,比如通过跟踪你的消费习惯,可以推断出你的收入情况,进而推荐一些你可能会买的产品。
数据一旦打通,后台就能了解你的个人信息,然后适时为你数据推送,进而形成数据产品。
2.大知识
再上一个层次就是大知识。
“这一层次,我们要了解的不只是个人,而是一个群体,什么年龄,什么样的性别,什么样的收入,可能需要什么样的产品等都需要了解。”吴信东解释道。
从公司的角度或者从银行的角度,可以做一些理财或投资。
或者把这些线索做一些大的交流,比如了解北京有多少人,有哪些事情可做,有哪些事情不可做,做了以后该如何跟进等等。
这些问题估计大知识目前还没真正落地到这个程度,但大知识是可以支持这一块的研究的。
国家在制定一个政策之前,发改委会有一套模拟机制,观察改变一个政策的每一个点参数。
哪些人群会从中受益,哪些人群可能会反对这个改变,最终对大社会循环产生什么样的效果,都是可以提前预判的。
这就是一个大知识。
大知识就是你的数据和我的数据未必相关,而且看似没有必要联系起来,但实际上,真正联系起来后会带来很多便利。
3.大智慧
从国家层面出发就是大智慧,它是一个整体,需要人类智能、人工智能和组织的商务智能。可能你我互不知晓对方的姓名,但有人知道。
比如银行,它是国家的,会观测哪些人会有欺诈行为,哪些人可能会对国家安全、对金融体系造成破坏。
那么,通过数据分析,在你进行破坏以前就可能被遏制住。
大数据、大知识、大智慧是三个台阶,大数据研究公认为是从美国启动的。
从大数据凝练大知识,是华人学者启动的一个台阶,2016年由吴信东牵头,联合国内15家单位在科技部开始做一个重点研发的专项项目,叫大数据知识工程。
他是这个项目的首席科学家,包括合肥工业大学、中科院与系统科学研究院,西安交通大学、中国科技大学、华东师范大学,还有百度和杭州的丁香园等。
明略成立了明略科学院,吴信东教授出任院长。
明略科学院目前已有来自中国科学院、中国工程院、澳大利亚科学院等机构的十几名院士入选首批Fellows,共同推动中国行业人工智能的前沿技术发展。
“我们现在要做的是把大知识、大数据融合起来,做落地、实际的工作,形成大智慧。”吴信东表示。
从大数据到大知识再到大智慧是明略的发展愿景,从公司来讲,要把科学和技术体系建立起来。
另外,国家千人计划是国际上的大事,在海外的华人学者都有科技报国的情怀,而且很多海外教授已经加入了科技报国事业。
“从公司层面来看,国内外有一个很大的差别,国内的公司,包括很有影响力的公司,基本以开发为主,以做产品为主。”吴信东介绍。
在国外,比如微软、谷歌等,就有很多真正国际上顶级科学家。
但在国内,真正从民营公司走出来的两院院士基本没有,大多是大学老师。
“所以,这一块在国内有改进、提高的可能,顶级科学家们可以走进公司做一些国计民生的科技创新,民营公司一样可以锻炼成就科学大师。”
八、人工智能的到来是大势所趋
“今天的人工智能技术正在彻底改变人类对机器行为的认知,重建人类与机器之间的相互协作关系。”人工智能专业出生的吴信东对它的前世今生有过深入研究。
1956年的达特茅斯会议标志着“人工智能”这个概念的诞生。
而在1956年以前,在世界各地,包括美国、英国等都在做一些尝试,机器翻译、逻辑推理、图灵机的设计、早期的神经网络的建模。
1956年标志“人工智能”的诞生,其中核心因素在于制造更聪明的计算机。随着人工智能概念形成以后,涉及到不同的侧面的探索。
真正让人工智能走向社会、走向世界、走向各行各业的应用,还是80年代的专家系统。
“我个人的研究背景涉及到专家系统和知识工程。其后大家又认识到光靠专家系统和符号推理,人工智能应用还是有明显局限。”吴信东介绍道。
90年代以后,统计学习推动了人工智能的广泛应用,近期的深度学习挺火热,深度学习给人工智能掀起了一个高潮。
而互联网时代的到来,从原来单纯的World Wide Web,到把Web上面的所有可能的信息都搜集起来,物物相连正在悄悄地走向人工智能和机器人的时代。
当然,对于人工智能将来会取代人的这一观点,吴信东持否定态度。
他认为人机同行是可实现的一个状态,但要把控好哪些事情需要人工智能来做,哪些需要人类智能来完成。人机同行是人去做创造性的事情,开发创造力。
以郑板桥画画为例:
郑板桥本身是一个画家,他的画很受欢迎,但有一天他想要画一幅跟别人都不一样的画,要让全世界都震惊的画。
怎么画?
他把很多鸡关了好几天,不给它们吃东西,任由它们在鸡窝里粪便。
有一天早上,突然之间在鸡窝门口铺好一张白纸,然后把所有的鸡放出来,让它们随意杂乱无章地跑。
结果,白纸上留下的鸡的脚印,就成了一幅画,而且是全世界内独一无二的一幅画。
撇开故事的真伪不谈,这个例子实质表明了一点,即重复性高、自主性要求低的工作可以由机器来代替,但创造力仍然是人类智能来完成。
总体来讲,机器能做的事情肯定会越来越多,面也越来越广;
比如海底探险:
一来是海底太深,压强大,人很难承受。
二来是海底有很多危险动物,包括鲨鱼等,这时可以通过机器人来代替,而且做得比人更好。
智能交通是未来10年到20年重要研究课题,计算机传感器可以自动检测周边环境,当这些应用慢慢建立起来后,不仅能节省人力,还能更多避免交通事故。
当然,人和机器不一定要硬性分开,是可以同行的,比如下围棋,以前我们认为只有人才可以下围棋,但AlphaGo的事实证明,机器也可以下围棋,只不过机器的下法和人的下法是不一样的。
就像1997年5月,IBM的Deep Blue击败了国际象棋的世界冠军一样,体现了人工智能技术的进步。
同时Deep Blue和AlphaGo都不能作为人工智能完全超越人类智能的例子。
“人工智能的危险是存在的,但是否肯定产生危险事实上还是由人来掌控。”吴信东以诺贝尔奖的来历为例。
当时诺贝尔是为了给人类造福,改良了炸药,结果发现他的改良炸弹可以用于破坏和战争。
这让他很痛心,于是拿出所有的积蓄建立了诺贝尔奖,奖励为人类做出卓越贡献的人。
实际上,炸药有没有危险,还是取决于人类自己,不能说谁能造炸药谁承担责任。
人工智能不仅是一次技术层面的革命,未来必将与重大的社会经济变革、教育变革、思想变革、文化变革等同步。
人工智能正在成为下一次工业革命的核心驱动力,也将成为人类社会全新的一次大发现、大变革、大融合、大发展的开端,但一定是人机同行才能让世界变得更加美好。
*文章为作者独立观点,不代表笔记侠立场。
对话新商业系列精彩回顾:
看完了,给笔记侠点个赞再走呀↓↓↓